Python爬虫 您所在的位置:网站首页 很有特色 英文怎么写 Python爬虫

Python爬虫

2023-07-11 01:17| 来源: 网络整理| 查看: 265

Python爬虫-requests库抓取页面内容中文乱码

在抓取页面内容过程中,获取的页面内容中文乱码;

response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: return -1

乱码内容如下:

将天天基金网设为上网首页吗?;;;;;;å°†å¤©å¤©åŸºé‡‘ç½‘æ·»åŠ åˆ°æ”¶è—å¤¹å—ï¼Ÿ å ³äºŽæˆ‘ä»¬|资质证明|ç ”ç©¶ä¸­å¿ƒ|联系我们|å®‰å ¨æŒ‡å¼•|å è´£æ¡æ¬¾|隐私条款|风险提示函|意见建议|在线客服 天天基金客服热线:95021;/;4001818188|客服邮箱:[email protected]|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30 郑重声明:天天基金系证监会批准的基金销售机构[000000303]ã€‚å¤©å¤©åŸºé‡‘ç½‘æ‰€è½½æ–‡ç« ã€æ•°æ®ä» ä¾›å‚è€ƒï¼Œä½¿ç”¨å‰è¯·æ ¸å®žï¼Œé£Žé™©è‡ªè´Ÿã€‚ 中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai 沪ICP证:沪B2-20130026;;网站备案号:沪ICP备05006054号;æ²ªå ¬ç½‘å®‰å¤‡ 31010402000118;版权所有:天天基金网;违法和不良信息举报:021-54509966/021-24099099

由此可以猜想到,是在获取页面的过程中出现了编码问题,使用:

response.text.encode("latin1").decode("utf-8")

将获取的内容先进行“latin1”编码,再进行解码(我所抓取网页的编码格式为UTF-8)。最终成功解决,中文显示正常。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有